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摘 要 : [目的 /意义 ] 在 线 健康 社区 中 对 高 影响 力 用 户 的 有 效 识 别 , 有 助 于 健康 信息 需求 者 发 现 有 价值 的 健康 信息 ,对 于 
降低 健康 信息 查找 成 本 和 提高 健康 行为 决策 的 有 效 性 具有 重要 意义 。[ 方 法 /过 程 ] 从 用 户 交 互 性 和 评论 情感 倾 
向 出 发 ,利用 PageRank 和 SVM 等 算法 构建 出 在 线 健康 社区 用 户 影 响 力 的 测量 方法 ,并 以 医 享 网 为 实验 对 象 ,从 发 
布 内 容 使 用 价值 的 视角 ,进一步 计算 了 该 社区 中 用 户 的 综合 影响 力 , 并 对 案例 用 户 进行 分 析 。[ 结果 /结论 ] 分 析 
结果 表明 该 算法 具有 一 定 的 合理 性 ,能 够 对 PageRank 算法 的 影响 力 计 算 结果 进行 优化 ;同时 ,利用 TF-IDF 和 互信 
息 算法 揭示 了 高 综合 影响 力 用 户 发 布 的 信息 内 容 与 社区 其 他 用 户 群体 内 容 主 题 基本 一 致 ,该 类 用 户 对 社区 的 主题 
方向 起 到 一 定 的 引导 作用 。 因 此 ,通过 本 研究 所 构建 的 方法 可 以 有 效 识别 高 影响 力 的 用 户 , 有 助 于 健康 信息 需求 者 
及 时 准确 的 发 现 所 需 信 息 , 提 高 健康 信息 的 使 用 效果 ,从 而 丰富 在 线 健康 社区 用 户 信息 行为 的 理论 和 实践 研究 。 

词 : PageRank 情感 倾向 “在线 健康 社区 用 户 影响 力 


号 : G252 
: 10. 13266/j. issn. 0252 -3116.2021. 11. 002 


-一 
> 
-一 
© 
全 


是 向 智能 医疗 转变 的 必 经 之 路 。 用 户 不 仅 可 以 在 线 预 
约 恩 号 .查阅 资料 ,还 能 够 得 到 意向 领域 专家 的 解答 或 
者 病友 的 经 验 传授 与 讨论 ,缩短 传统 医疗 中 寻根 问 药 
的 时 间 成 本 ,大 大 提高 了 用 户 的 参与 感 与 治疗 效率 。 
据 医疗 相关 数据 显示 ,2018 年 全 国 超过 99 万 家 卫生 机 
构 总 会 诊 人 次 达到 33.8 亿 "" ,2019 年 在 线 咨询 总 量 达 
5.6 亿 次 ,未 来 将 持续 保持 上 升 趋势 5” 。 同 时 ,《* 互 联 
网 + 医疗 健康 "发展 的 意见 》 也 鼓励 在 线 健康 社区 
运用 互联 网 的 相关 技术 加 快 实现 资源 互通 ,信息 共享 
与 远程 医疗 等 服务 ,不 断 健全 互联 网 + 医疗 的 一 体 化 
服务 体系 ,加 强 医院 、 医 生 与 患者 间 的 有 效 沟通 。 

目前 ,国内 健康 问题 讨论 规模 较 大 的 在 线 社区 以 
医 享 网 .39 健康 论坛 与 好 大 夫 在 线 等 网 站 为 主 ,这 些 
在 线 社区 用 户 多 ,知识 传播 速度 快 ,产生 了 大 量 的 信息 
与 数据 ,为 健康 信息 需求 用 户 提供 了 有 价值 的 健康 信 


息 。 在 线 社区 中 存在 一 些 活 路 程度 较 高 的 用 户 ,他们 
能 够 吸引 到 其 他 用 户 的 关注 和 互动 ,从 而 在 一 定 程度 
上 影响 其 他 用 户 的 信息 行为 和 健康 决策 ,对 于 整个 在 
线 社 区 的 信息 传播 具有 较 强 的 导向 作用 。 然 而 ,用 户 
的 活跃 程度 与 其 所 发 布 的 信息 的 使 用 价值 间 并 非 存 在 
直接 关系 ,如 一 些 用 户 具有 较 强 的 交互 影响 力 ,在 社区 
活跃 程度 较 高 ,求助 和 抒发 情感 等 行为 频繁 ,所 发 布 的 
言 息 也 受到 较 多 关注 ,但 其 他 用 户 对 其 评价 不 高 ,在 一 
定 程度 上 反映 了 其 信息 的 使 用 价值 有 限 ;还 有 一 些 用 
户 尽 管 交 互 活路 程度 不 高 ,但 其 所 发 布 的 信息 受到 的 
积极 评价 较 多 ,其 所 发 布 的 信息 具有 较 好 的 应 用 价值 。 
因此 ,从 信息 使 用 价值 角度 出 发 ,如 何 结合 用 户 活 路 性 
和 交互 情感 倾向 性 识别 来 判断 在 线 健康 社区 用 户 的 综 
合影 响 力 , 对 于 帮助 用 户 便捷 、 有 效 地 利用 健康 信息 ， 
做 出 客观 的 健康 行为 决策 等 方面 具有 重要 意义 。 本 研 
究 拟 在 融合 用 户 交 互 活跃 性 和 评论 情感 倾向 的 基础 
上 ,探索 性 地 构建 在 线 健康 社区 用 户 综合 影响 力 的 测 
量 算 法 ,并 在 相应 的 在 线 健康 社区 中 进行 实验 和 结果 
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分 析 , 以 期 为 有 效 挖掘 在 线 健 康 社区 中 有 影响 力 的 用 
户 和 有 价值 的 健康 信息 提供 一 定 的 方法 和 参考 。 


2 相关 研究 


用 户 影响 力 的 分 析 与 测量 是 在 线 社交 媒体 和 在 线 
社区 相关 研究 领域 中 ,学 者 所 关注 的 重要 研究 方向 之 

。 目 前 关于 用 户 影响 力 的 相关 研究 主要 采用 特征 值 
统计 分 析 方法 ,社会 网 络 分 析 方法 以 及 PageRank 方法 
等 。 

特征 值 统计 分 析 方法 主要 通过 统计 能 够 反映 在 线 
社区 用 户 活跃 特征 的 相关 特征 值 ,并 进行 一 定 的 指标 
和 权重 的 设 定 ,从 而 计算 用 户 的 影响 力 。 如 王 佳 敏 
等 中 在 分 析 用 户 影响 力 时 ,主要 统计 了 影响 力 指标 和 
活跃 度 两 个 指标 ,其 中 影响 力 指标 包括 粉丝 数 , 被 转发 
数 < 敬 评 论 数 .是 否认 证 4 个 特征 值 ,活跃 度 指标 包括 
微 博 数 和 关注 人 数 两 个 特征 值 。 赵 发 珍 等 中 利用 博客 


PageRank 算法 基础 上 考虑 了 加 权 社 会 网 络 相关 因素 ， 
对 PageRank 算法 进行 了 改进 ,从 而 对 用 户 的 影响 力 进 
行 了 探索 。 肖 宇 等 在 PageRank 的 基础 上 进一步 考 
虑 了 用 户 之 间 的 互动 程度 以 及 用 户 共享 意愿 ,从 而 提 
出 了 用 于 计算 用 户 影响 力 的 Weibo-Rank 算法 。 

综 上 所 述 ,当前 关于 用 户 影 响 力 分 析 的 研究 主要 
集中 于 对 用 户 互 动 指标 、 交 互 网 络 结构 属性 的 分 析 , 但 
多 数 研究 都 主要 从 单一 的 视角 对 在 线 社区 用 户 的 影响 
力 进 行 评价 和 分 析 , 这 会 在 一 定 程 度 上 降低 用 户 影响 
力 测 量 的 有 效 性 。 特 征 值 统计 分 析 方 法 与 社会 网 络 分 
析 方 法 虽 能 在 不 同 程度 上 衡量 社区 用 户 影响 力 ,但 前 
者 过 于 依赖 特征 得 分 ,忽略 了 真实 交互 影响 力 ,后 者 多 
聚焦 小 型 网 络 ,更 多 侧重 于 直接 关系 的 测量 。 而 Pag- 
eRank 算法 既 支 持 计 算 交 互 影 响 力 ,也 能 够 融 人 更 多 
特征 得 分 ,具有 较 好 的 融合 性 ,能够 较为 客观 全 面 的 反 
映 出 用 户 综合 影响 力 。 在 线 健康 社区 中 ,用 户 之 间 的 


用 数量 .回复 数量 .网 页 内 外 链接 数 等 特征 值 进 行 
用 癌 影 响 力 的 建 模 。 董 伟 等 ”也 通过 获取 和 分 析 在 线 


祛 医 中 用 户 的 留存 时 间 发帖 量 、 粉 丝 数 等 反映 个 人 和 
< 她 维 度 的 相关 特征 值 , 对 活跃 用 户 进行 了 识别 ,并 对 

十 区 中 的 影响 力 进行 了 分 析 。 

十 会 网 络 分 析 方 法 主要 通过 关系 网 络 结构 中 的 属 


交互 信息 情感 倾向 可 以 有 效 的 判断 社区 中 信息 是 否 具 
有 良好 的 利用 价值 ,但 当前 多 数 研究 中 忽略 了 该 类 主 
观 因 素 。 因 此 ,有 必要 对 用 户 交 互 行为 和 评论 情感 倾 
向 进行 结合 ,进一步 完善 和 发 展 在 线 健 康 社区 用 户 影 
响 力 计算 和 评价 方法 。 故 本 研究 从 交互 性 和 情感 倾向 
融合 的 视角 出 发 , 先 使 用 PageRank 算法 对 在 线 健康 社 


性 久 来 计算 各 个 网 络 节点 在 网 络 中 的 重要 性 ,如 网 络 
密 庶 \ 点 度 中 心性 .中 介 中 心性 .接近 中 心性 及 等 。 陈 
诈 替 "通过 分 析 社会 网 络 的 中 心 度 、 结 构 洞 等 指标 来 
挖 括 在 线 社区 中 用 户 的 影响 力 。 谢 英 香 等 " 则 通过 对 
社会 网 络 分 析 法 中 的 中 心 度 的 分 析 , 利 用 MDS 等 方 
法 6 分 析 了 虚拟 社区 中 的 用 户 的 影响 力 ,并 进一步 揭示 
该 社区 存在 意见 领袖 现象 。S，Jonnalagadda” 等 则 综 
合 分 析 了 点 度 中 心性 \ 点 度 中 介 性 ,以 及 点 度 紧密 性 等 
反映 中 心 的 指标 ,从 而 发 现 了 医学 在 线 社区 中 具有 较 
影响 的 意见 领袖 。 

PageRank 算法 认为 ,社交 网 络 中 用 户 间 的 点 赞 转 
发 与 评论 等 互动 关系 与 网 页 之 间 的 链接 指向 非常 类 
似 ,因此 网 页 间 链 接 结构 的 分 析 方法 也 可 以 用 于 社交 
网 络 用 户 之 间 转 发 .评论 等 互动 关系 的 分 析 "" 。Pag- 
eRank 算法 也 被 越 来 越 多 学 者 应 用 于 在 线 社区 用 户 影 
响 力 的 分 析 和 测量 等 方面 。 如 刘 玲 等 ” , 张 俊 豪 等 ” 
在 PageRank 算法 的 基础 上 融入 了 用 户 行为 中 转发 率 、 
评论 率 . 微 博 数量 、 时 间 间 隔 等 指标 ,对 微 博 社区 中 信 
息 传播 核心 贡献 者 和 高 影响 力 用 户 进行 了 探索 ;X. 
Song 等 "" 则 通过 将 用 户 提供 的 信息 新 颖 性 与 PageR- 
ank 相 结合 ,提出 了 综合 影响 力 算法 。 苑 丽 玲 等 "在 


区 中 所 有 用 户 的 交互 影响 力 进行 排序 ,然后 通过 判断 
和 寻找 最 优 机 器 学 习 情感 分 类 模型 ,识别 用 户 评 论 情 
感 倾向 性 ,进而 融合 交互 影响 力 和 情感 倾向 计算 和 识 
别 出 用 户 的 综合 影响 力 。 
3 研究 设计 
3.1 研究 思 

本 研究 的 思路 主要 包括 四 个 步骤 ,首先 是 利用 数 
据 爬 虫 对 在 线 社区 相关 信息 进行 朴 取 ,对 数据 进行 预 
处 理 , 并 将 最 终 可 用 的 数据 存 人 数据 库 , 包 括 用 户 和 评 
论 信息 两 个 方面 。 其 次 ,是 对 用 户 的 综合 影响 力 进行 
计算 ,综合 影响 力主 要 包括 三 项 子 算法 :四 利用 PageR- 
ank 算法 对 用 户 的 交互 影响 力 进 行 计算 ;@ 通 过 选择 
最 优 情感 分 类 模型 ,对 评论 信息 进行 情感 归 类 与 分 析 ， 
并 进一步 对 评论 信息 情感 倾向 值 进 行 计算 ;3 融合 上 
述 两 内 容 的 结果 按照 特定 公式 进行 融合 ,并 通过 案例 
分 析 进 行 对 比 。 再 次 ,利用 TF-IDF 与 互信 息 算法 进 
步 探究 高 综合 影响 力 用 户 所 生产 的 信息 内 容 与 社区 其 
他 用 户 群 体内 容 主 题 方向 的 关系 ,并 通过 可 视 化 的 方 
法 进行 比较 分 析 。 最 后 ,对 本 研究 的 研究 过 程 和 方法 
进行 总 结 ,并 提出 相应 的 研究 展望 。 如 图 1 所 示 : 
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二 图 1 研究 思 


3 学 - 数据 获取 与 预 处 理 
局 本 研究 以 健康 社区 中 的 用 户 所 发 布 的 信息 及 其 评 
诊 仿 息 为 分 析 对 象 ,使 用 Python 语言 构建 多 线程 公 虫 
了 ,以 Cookie 参数 与 报头 信息 作为 用 户 与 浏览 器 表 
徙 这 具 , 通 过 解析 DOM 树 获得 该 社区 中 用 户 交流 之 间 
的 家 关内 容 , 包 括 用 户 昵称 发 帖 内 容 与 相应 的 回帖 信 
& 
QJ 此 外 ,进一步 对 相关 数据 进行 预 处 理 , 如 分 词 处 
理 S 几 户 编码 映射 表 构建 ,用户 评 论 映 射 表 构 建 .用 户 
请 到 者 映射 表 构 建 .异常 用 户 处 理 等 。 本 研究 拟 以 医 
享 网 社区 的 用 户 生成 内 容 为 例 ,并 收集 相应 数据 进行 
相 笑 实验 和 分 析 。 
3 虞 = 分 析 过 程 与 技术 

传统 PageRank 算法 中 , 较 多 考虑 的 是 网 站 或 者 用 
户 之 间 的 交互 关系 与 权重 ,并 不 对 其 本 身 质 量 进行 分 
析 , 故 本 研究 结合 用 户 交互 关系 与 用 户 评论 等 信息 内 
容 进 行 分 析 , 一 方面 发 气 潜 在 网 络 用 户 影响 力 排名 ; 另 
一 方面 对 用 户 情 感 倾向 进行 识别 ,并 融合 两 者 进行 综 
合 性 探究 
3.3.1 用 户 交 互 影响 力 的 计算 

本 研究 抽取 了 用 户 与 评论 用 户 的 映射 关系 ,对 发 
帖 人 与 评论 人 的 多 元 共 现 关系 进行 了 梳理 ,并 将 具体 
交互 网 络 转换 为 交互 矩阵 ,使 用 PageRank 算法 得 到 交 
互 网 络 中 交互 影响 力 较 高 的 用 户 ,具体 算法 如 下 : 

基本 PageRank 算法 思想 如 公式 1 所 示 , 其 中 0 表 
示 其 他 指向 A 节点 的 节点 ,PR(O) 表 示 其 他 指向 A 节 
点 对 应 的 节点 PR 值 , L(0) 表 示 其 他 指向 A 节点 的 节 
点 出 链 数 , PR' 为 对 应 节点 的 下 一 次 迭代 PR 值 ,m 表 


示 模 型 收敛 时 的 迭代 次 数 ,N 表示 用 户 节 点 的 总 个 数 ， 
各 用 户 节点 初始 PR 值 为 IN ,最终 PR 值 为 这 些 用 户 
的 交互 影响 力 得 分 。 


公式 (1) ” 


为 方便 计算 一 般 使 用 公式 (2) (等 价 转换 于 公式 
(1) ) 的 形式 进行 计算 ,其 中 M 为 本 研究 中 用 户 交 互 网 
络 形 成 的 转移 矩阵 ,具体 如 公式 (3) 所 示 ,M(ui,w) 表 
示 用 户 j 出 链 到 用 户 i, 即 用 户 互 动情 况 ,PR 为 PR' 上 
一 次 迭代 结果 。 


PR' =M * PR 公式 (2) 
Mw) M(u ,uw,) 由 M(u ,un ) 
M(u, ,ui ) M(u su, ) 
"| M(uwis) 
M(uy ,ui ) M(un ,uy) 
公式 (3) 


然而 ,上 述 计算 方式 对 于 某 些 入 链 自 身 节点 的 PR 
值 解释 无 力 ,并 造成 节点 的 PR 值 产生 偏 移 和 错误 ,人 
链 自 身 节点 的 PR 值 最 终 为 1, 而 其 他 节点 PR 值 为 0。 
为 解决 这 一 问题 ,引入 公式 (4) 进行 修正 ,其 中 ,6 为 阻 
尼 系 数 , 取 值 0.85 ,主要 用 于 解决 陷阱 与 孤立 点 问题 。 


(1-B)/N 
PR' = B*M*PR+ ee 
(1-B)/N 

公式 (4) ” 

设置 迭代 停止 条 件 为 下 一 次 PR' 值 与 上 一 次 PR 


值 相等 , 且 ;., PR,' = 1。 该 算法 能 有 效 发 掘 交互 网 
络 中 的 关键 人 物 ,并 对 这 些 用 户 能 被 赋予 较 高 的 PR 
值 ,从 而 发 现 交 互 影响 力 较 高 的 用 户 。 
3.3.2 用 户 评论 文本 情感 倾向 识别 的 计算 

在 线 健 康 社区 用 户 生成 内 容 的 评论 存在 着 明显 的 
情感 倾向 ， 而 这 类 倾向 可 以 作为 用 户 影响 力 及 生产 内 
容 质量 评价 的 重要 指标 之 一 。 本 研究 通过 对 文本 
进行 大 量 特 征 抽取 基础 上 ,借助 有 监督 机 器 学 习 模 型 
进行 情感 倾向 识别 ,包括 随机 森林 算法 、Logistic 算法 、 
SCD 算法 ,SVM 算法 、 朴 素 贝 叶 斯 算法 。 性 能 评价 指 
标 包括 准确 度 和 Fl 值 ,其 中 Fl 值 与 召回 率 与 精确 率 
均 有 关 , 一 般 被 认为 是 评价 模型 优 劣 的 综合 性 指标 , 计 
算 方式 见 公 式 (5 ) 与 公式 (8), TP 指正 类 被 预测 为 正 的 
数量 ,TN 指 负 类 被 预测 为 负 的 数量 ,FP 指 负 类 被 预测 为 
正 的 数量 ,FN 指正 类 被 预测 为 负 的 数量 。 情 感 分 类 类 
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别 主 要 涉及 三 方面 :中 表示 支持 ,标记 为 1;@ 商 讨 、 讨 论 
表示 中 立 ,标记 为 0; 全 反对 表示 否定 ,标记 为 2。 
Accuracy = (TP +TN)/(TP+TN+FP+FN) 


公式 (5) ” 
Precision = TP/ (TP + FP) 公式 (6)' 
Recall = TP/(TP + FN) 从 起 (7)3 


Fl1 = (2 * Precision * Recall )/(Precision + Recall ) 
公式 (8) 
基于 上 述评 价 指标 选择 合适 的 模型 进行 预测 ,并 
对 结果 进行 梳理 ,所 公式 (9) 所 示 , 该 计算 思想 能 够 克 
服 不 同比 例 和 不 同 数 量 级 上 数据 带 来 的 干扰 。 其 中 ， 
AV 代表 情感 倾向 值 ,UV, 表示 所 有 用 户 中 某 一 位 用 户 ,w 
属于 0 或 者 1 类 , 即 非 否定 类 ,len( w) 用 于 衡量 具体 类 别 
人 数 ,+ 表示 这 位 用 户 收 到 的 评论 情感 类 别 。 为 进一步 
降低 数量 级 关系 带 来 的 干扰 ,统一 将 每 位 用 户 的 情感 倾 
喇 食 放 入 列表 中 ,并 通过 标准 化 函数 进行 归 一 化 。 
U, (len(w)) 
U, (len(7)) 


『 = > U,(len(w))[ *2 iw= = 


公式 (9) 


e[0,1,2] 
融合 两 种 算法 的 综合 影响 力 的 分 析 
本 研究 对 上 述 PageRank 算法 和 情感 倾向 识别 结 
皮带 行 融 合 ,以 期 探索 从 交互 性 和 评论 的 情感 性 两 个 
慷 交 对 健康 社区 用 户 影响 力 进行 综合 性 的 评价 。 在 
PagERank 算法 基础 上 融合 情感 倾向 值 ,即将 用 户 的 情 
感 惨 向 值 作为 相应 用 户 的 权重 ,与 交互 影响 力 进行 融 
合 e 形 成 用 户 新 的 综合 影响 力 值 , 见 公式 (10) ,其 中 
表示 ”个 用 户 中 的 某 一 位 ,UR 代表 综合 影响 力 ,PR, 
代替 交互 影响 力 ,AV, 代表 情感 借 向 值 。 

UR, = PR * AV, ,pe[1,2,3,.…,n] 
3.3.4 综合 影响 力 用 户 文本 内 容 的 分 析 

为 进一步 探究 高 综合 影响 力 用 户 对 健康 社区 主题 
方向 的 影响 , 即 这 些 具有 高 综合 影响 力 的 用 户 信息 文 
本 是 否 在 一 定 程度 上 代表 或 影响 了 社区 的 内 容 主题 方 
,本 研究 将 进一步 使 用 TF-IDF 和 互信 息 算法 构建 不 
用 户 群 体 生 成 内 容 的 共 词 矩阵 进行 分 析 和 对 比 。 首 
先 使 用 TF-IDF 分 别 计算 高 综合 影响 力 用 户 和 社区 所 
有 用 户 生成 内 容 的 高 频 词 ,然后 借助 互信 息 算法 抽取 
高 频 词 最 为 相关 的 若干 词 条 ,从 而 分 别 形成 高 综合 影 
响 力 和 社区 其 他 用 户 群体 内 容 的 共 词 矩 阵 网 络 , 并 对 
其 做 进一步 的 比较 ,以 探索 高 综合 影响 力 发 布 内 容 与 
社区 其 他 用 户 发 布 内 容 的 关系 。 

(1)TF-IDF 计算 。TF-IDF 是 一 种 加 权 算 法 , 它 的 
优点 在 于 可 以 过 滤 掉 文本 中 常见 但 没有 实际 意义 的 词 


公式 (10) 


到 可 


语 , 同 时 保留 真正 影响 文本 的 词语 ,因此 TF-IDF 相 较 
于 普通 的 词 频 统计 更 加 准确 和 客观 ,具体 算法 如 下 : 


TF-IDF = 


人 Ni D 
一 公式 (11) 7 
5 Ni 08 D,+1 公式 (11) 


其 中 ,NN, ,表示 用 户 生成 关键 词 i 在 文档 j 中 的 出 
现 频 次 , 1 NN ,表示 上 个 关键 词 对 应 的 文章 总 词 数 , 即 
前 半 部 分 计算 称 为 TF ,表示 关键 词 i 在 文档 j 中 出 现 
的 频率 。 后 半 部 分 D 表示 语 库 中 的 文档 总 数 ,D, 表示 
D 篇 文档 中 包含 关键 词 i 的 文档 数量 ,同时 为 避免 所 
有 文档 都 不 包含 该 词 , 故 分 母 加 1。 

(2) 互 信息 。 互 信息 主要 指 的 是 知道 一 个 词 条 ， 
而 对 男 外 一 条 词 条 的 不 确定 性 减少 的 程度 。 具 体 而 
言 ,需要 我 们 先 使 用 JIEBA 对 用 户 生成 内 容 进行 分 词 ， 
然后 遍历 带 有 高 频 性 质 的 词 条 与 其 他 分 词 间 相互 依赖 
性 的 度量 ,并 在 此 基础 上 形成 高 频 词 - 互信 息 网 络 , 以 
此 进行 可 视 化 和 比较 分 析 。 基 本 算法 如 下 : 


M(x,y) = logs—P ey) 公式 (12) 外 
p(x)p(Y) 


其 中 ,p(x,y) 表 示 某 两 分 词 的 联合 概率 分 布 , 即 词 
条 x 与 y 在 用 户 生 成 内 容 中 共同 出 现 的 概率 ,p(x) 与 p 
(7) 则 对 应 词 条 * 与 词 条 y 分 别 在 用 户 生 成 内 容 中 的 
概率 分 布 。 一 般 而 言 ,M(x,y) 越 大 , 则 说 明 他 们 两 者 
之 间 的 关系 越 紧密 ,可 能 同时 出 现 的 几率 就 越 大 ,反之 
则 说 明 共 现 几 率 越 小 。 


4 研究 结果 


4.1 实验 数据 

医 享 网 是 国内 在 线 健康 社区 中 用 户 较 多 ,可 信 度 
较 高 的 社区 之 一 ,支持 病例 库 查 询 ,在 线 健康 问题 问 
管 ,其 中 痛风 圈 社 区 的 内 容 交 互 较为 频繁 ,论述 相对 全 
面 ” 。 故 本 研究 设置 医 享 网 的 痛风 疾 作 为 数据 来 源 ， 
收集 时 间 为 2020 年 2 月 ,依据 相关 公开 内 容 , 设 计 扑 
虫 程序 进 行 数据 抽取 ,具体 数据 主要 包括 用 户 昵 称 \ 发 
帖 与 回帖 内 容 。 

进一步 对 数据 进行 预 处 理 ,分 词 处 理 ,即使 用 
JIBEA 对 用 户 文本 进行 分 词 ,以 进行 高 频 词 统计 和 互 
言 息 模型 构建 ;用 户 编码 映射 表 构建 , 即 对 所 有 用 户 进 
行 统一 编码 ,如 用 户 工 .用户 2 等 顺 排 至 最 后 ;用 户 评论 
映射 表 , 即 对 用 户 所 发 表 的 评论 内 容 进行 对 应 ;用 户 评 
论 者 映射 表 , 即 构建 评论 用 户 1、 用 户 2 等 的 用 户 评论 
映射 表 ; 蜡 常用 户 处 理 即 过 滤 掉 评论 或 发 帖 与 通风 圈 
无 关 的 用 户 ,如 推送 广告 用 户 等 。 经 过 最 终 预 处 理 , 共 
得 到 292 位 有 效用 户 的 2 560 条 有 效 交 互 内 容 。 
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4.2 分析 结 果 
4.2.1 基于 PageRank 的 用 户 交互 影响 力 分 析 结 果 
用 户 交 互 影 响 力 的 计算 主要 通过 本 研究 公式 (4) 
中 的 PageRank 的 算法 进行 计算 ,具体 分 析 结 果 见 图 2。 
从 整体 分 布 来 看 ,大 多 数 用 户 的 交互 影响 力 偏 低 ,而 只 
有 少 部 分 用 户 处 于 高 影响 力 水 平 ,如 用 户 253、 用 户 
269 用户 151、 用 户 154 等 ,说 明 这 部 分 用 户 受 到 其 他 
用 户 的 较 多 关注 ,具有 一 定 的 影响 力 。 
但 基于 PageRank 算法 的 排名 , 仅 考 虑 了 用 户 之 间 
的 交互 机 制 来 加 以 判定 ,虽然 具有 一 定 的 实用 性 ,但 忽 
略 了 信息 使 用 价值 的 判断 , 即 一 些 用 户 尽管 交互 影响 


01Vv1 


互 影 响 力 


巧 


02304.006 


,A 
= 


力 很 高 ,但 其 所 发 布 的 信息 如 果 受 到 其 他 多 数 用 户 的 
质疑 或 者 否定 , 那 该 信息 的 有 效 性 会 受到 影响 ,如 评论 
用 户 对 高 交互 影响 力 用 户 253 和 用 户 269 的 评价 是 分 
别 存 在 “ 你 是 中 医 ?” “就 是 因为 无 法 治愈 “是 不 是 庸 
ee “是 你 自己 无 知 ” 等 负面 或 质疑 倾向 的 评 

论 内 容 ,这 会 在 一 定 程度 上 影响 该 用 户 的 交互 影响 力 。 
因此 ,本 研究 将 进一步 探讨 评论 情感 倾向 性 对 用 户 影 
响 力 的 影响 ,并 探索 将 评论 情感 倾向 融合 进入 用 户 的 
交互 影响 力 值 中 ,综合 探讨 和 分 析 用 户 生成 内 容 的 使 
用 价值 ,从 而 提升 用 户 影响 力 测 量 的 客观 性 和 有 效 性 。 
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融合 评论 情感 倾向 的 用 户 综合 影响 力 分 析 结 


湘 ， 污 
chin 


(1) 情 感 倾 向 分 类 模型 的 选择 与 分 析 。 本 研究 在 
PageRank 分 析 结 果 的 基础 上 ,融合 用 户 情感 倾向 的 分 
析 ,对 相关 文本 进行 分 析 。 为 确定 评论 情感 倾向 分 析 
的 最 优 模型 ,本 文选 取 了 机 咒 学 习 算 法 中 的 Random- 
Forest( 随机 森林 算法 ) Logistic( 逻辑 回归 算法 ) SCD 
(随机 梯度 下 降 算法 )、SVM (支持 向 量 机 算法 ) 以 及 
Bayesian( 朴素 贝 叶 斯 算法 ) 五 大 经 典 算法 进行 比较 分 
析 。 首 先 对 文本 中 的 情感 倾向 进行 两 轮 的 人 工 数据 标 
注 , 所 判断 的 一 致 性 达到 95% 以 上 。 同 时 为 优化 情感 
倾向 识别 效果 ,通过 多 轮 试验 与 调试 ,最 终 确定 主要 参 


数 设置 值 :随机 森 设置 林 min_samples_leaf 为 1 ,min_ 


samples_split 为 2 ,criterion 为 “gini” 算 法 ,n_estimator 为 
10;SGD 设置 loss 为 “log”,max_iter 为 100;SVM 设置 
kernal 为 “linear”,C 为 1 ;Logistic 与 朴素 贝 叶 斯 均 采 用 
默认 参数 进行 比较 判断 ,从 而 选择 综合 性 能 较 高 ,更 稳 


图 2 ”PageRank 算法 的 景 


响 力 分 布 


定 的 模型 ,作为 与 PageRank 算法 融合 的 基础 。 每 次 训 
练 都 重新 对 训练 集 数 据 进行 评估 ,测试 集 设 占 总 数据 
量 的 20% ,训练 集 占 80% ,分 别 迁 代 10 次 ,具体 计算 
结果 见 表 1, 可 以 发 现 ,Logistic 回归 算法 Fl 值 相对 较 
低 ,说 明 模 型 效果 一 般 , 而 基于 线性 函数 的 SVM 模型 
10 次 Fl 平均 值 (AVEG_F1 ) 与 平均 准确 度 (AVEG_ 
ACC ) 都 是 最 高 的 , 略 优 于 其 他 算法 ,其 方差 最 小 (S2_ 
Fl ) ,具有 更 加 稳定 的 预测 能 力 , 故 选 SVM 模型 对 整体 
数据 进行 识别 和 分 类 。 

其 次 ,在 确定 采用 SVM 模型 进行 计算 的 基础 上 ， 
对 所 有 用 户 对 应 的 评论 情感 倾向 性 进行 了 分 析 和 对 
比 , 具 体 计 算 结果 见 表 2 和 图 3, 其 中 用 户 1 的 交互 影 
响 力 为 0.001 ,情感 倾向 值 为 0, 用 户 7 的 交互 影响 力 为 
0.001 ,情感 倾向 值 为 0.071 ,而 用 户 151 ,用 户 154 等 用 户 
有 较 高 的 情感 倾向 值 ,分 别 是 1.797 与 1.294 ,但 其 交互 影 
响 力 较 低 , 只 有 0.040 与 0.024 ;而 用 户 253 和 用 户 269 
则 具有 较 低 的 情感 倾向 值 , 分 别 是 0. 142 与 0.071 ,但 有 
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表 1 机 器 学 习 各 个 模型 的 计算 结果 比较 


第 i 次 RandomForest Logistic SGD SVM Bayesian 
1 0. 85 0.86 0.86 0.88 0.86 
2 0.94 0.86 0.87 0.92 0.90 
3 0. 88 0.88 0.90 0.86 0.89 
4 0. 86 0.84 0.91 0.90 0.88 
和 0.88 0.86 0.84 0.89 0.92 
6 0.92 0.83 0.88 0.91 0.93 
7 0. 88 0.82 0.93 0.95 0.91 
8 0. 80 0.88 0. 85 0.91 0.86 
9 0. 86 0.80 0.94 0.91 0.86 
10 0.92 0.89 0.91 0.93 0.90 
AVEG_F1 0. 88 0.85 0.89 0.91 0.89 
AVEG_ACC 0. 87 0.89 0.91 0.92 0.88 
S2_ Fl 0. 002 0. 001 0.001 0.001 0.001 


较 大 的 交互 影响 力 , 达 到 了 0.088 与 0.087。 
一 最 后 ,从 整体 数据 来 看 ,用 户 的 评论 情感 倾向 的 区 
分 计较 为 明显 ,与 所 对 应 用 户 的 交互 影响 力 们 的 分 布 
Dy 


情感 倾向 值 


202304.0060 


不 完全 一 致 ,可 以 作为 综合 影响 力 重要 指标 之 一 ,对 交 
互 影响 力 进行 融合 和 补充 。 
表 2 用 户 交 互 影响 力 和 评论 情感 倾向 分 布 (随机 部 分 ) 


用 户 。 交互。 评论 情感 | 用 户 交互 。 评论 情感 

影响 力 。 ”倾向 值 影响 力 ”倾向 值 
1 0.001 0. 000 113 0. 003 0.247 
党 0.001 0.071 yi 0. 001 0.071 
3 0.001 0. 000 138 0. 005 0.734 
时 0.003 0.106 139 0.010 0.667 
32 0.001 0.000 151 0. 040 1.797 
42 0.003 0.177 154 0. 024 1.295 
48 0.001 0.036 175 0. 002 0.901 
68 0.002 0.036 253 0.088 0.142 
74 0.001 0. 000 256 0.010 0.383 
94 0.002 0. 035 269 0.087 0.071 

户 191 
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3 ”用户 评论 情感 倾向 值 分 布 


(2) 用 户 综合 影响 力 分 析 结 果 。 在 以 上 研究 的 基 
础 上 ,进一步 将 情感 倾向 和 交互 影响 力 进行 融合 分 析 ， 
并 得 出 综合 影响 力 分 布 ,其 结果 见 表 3 和 图 4。 图 4 
中 , 横 坐 标 代表 的 是 292 位 用 户 , 纵 坐 标 代 表 的 是 每 位 
用 户 融 合 情 感 倾向 值 与 用 户 交 互 影响 力 PR 值 后 的 结 
果 , 即 综合 影响 力 。 大 多 数 用 户 在 0 到 0.01 范围 内 ， 
有 部 分 用 户 数值 相对 较 大 ,在 0.01 水 平 以 上 ,最 高 达 
到 了 0.07 水 平 左 右 。 其 中 ,用 户 151 综合 影响 力 得 到 
了 较 大 的 提升 ,达到 了 0.071 5, 有 29% 的 其 他 用 户 对 
其 内 容 具 有 较 强 的 正 向 情感 倾向 ,这 对 于 用 户 的 综合 
影响 力 具 有 较 大 的 影响 ;用 户 154 达到 了 0. 031 2, 有 
33% 的 用 户 持 有 积极 情感 倾向 ,但 同时 有 13% 的 用 户 


具有 消极 情感 倾向 。 此 外 ,通过 比较 发 现 发 现 ,用 户 
253 和 用 户 269 等 人 的 综合 影响 力 相 较 于 自身 的 交互 
影响 力 变化 也 较 大 , 见 图 4。 对 比 图 2 发 现 ,用 户 交 互 
影响 力 排名 较 高 ,但 如 果 内 容 并 不 能 得 到 多 数 评论 的 
肯定 ,其 综合 影响 力 排 名 大 多 会 有 较 大 变化 。 这 也 说 
明 在 线 健康 社区 中 ,并 非 所 有 的 用 户 或 者 内 容 都 是 符 
合用 户 需 求 的 ,有 些 用 户 虽 然 交 互 影响 力 较 高 ,但 其 可 
能 是 处 于 寻求 帮助 的 状态 ,甚至 部 分 用 户 所 提 到 的 内 
容 可 能 具有 广告 性 质 或 灌水 行为 ,并 未 得 到 相应 的 肯 
定 评论 ,甚至 得 到 较 多 的 负面 评价 ,因此 其 不 应 作为 有 
价值 的 信息 ,发 布 信息 的 用 户 的 综合 影响 力也 将 受到 


相应 的 影响 。 
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了 于 所 下 


影响 力 的 转变 机 理 , 本 研究 对 具体 用 户 的 各 项 指标 与 
评论 数据 内 容 进 行 了 梳理 ,以 上 述 图 中 所 标注 的 4 位 
典型 用 户 ( 用 户 151 .用户 154 ,用户 253 用户 269 等 ) 
作为 案例 对 象 , 具体 结果 见 表 4。 由 于 用 户 151 用户 
154 收 到 的 评论 数据 多 为 “学 习 了 ,谢谢 ”“ 顶 一 下 ” 
“感谢 感谢 ”等 积极 类 文本 ,因此 这 类 用 户 情 感 倾向 值 
较 大 ,具有 较 重要 的 实用 价值 和 传播 意义 ,在 整体 上 提 


= 1 0.0000 113 0.0007 

四 7 0.0001 117 0.0001 
名 13 0.0000 138 0.003 5 
ED 1 0.000 3 139 0.0064 
CN 2 0.0000 151 0.0715 
On 0.000 5 154 0.0313 
A 48 0.0000 175 0.0016 
之 68 0.000 1 253 0.012 5 
SE 4 0.0000 256 0.0039 
(SG % 0.0001 269 0.0062 


-一 一 一 一 一 一 
斧 必 外 ,为 进一步 探究 不 同 用 户 交 互 影响 力 到 综合 


© 


高 了 用 户 的 综合 影响 力 。 而 用 户 253 和 用 户 269 虽 具 
有 较 高 的 交互 影响 力 , 但 由 于 其 得 到 的 评论 情感 多 为 


质疑 和 消极 ,如 “你 是 中 医 ?”“ 真 的 可 以 治愈 吗 ?”“ 是 


三 | 


你 自己 无 知 ” ,因此 评论 情感 倾向 值 较 低 ,从 而 使 得 其 
综合 影响 力 受到 影响 而 下 降 。 


表 4 典型 用 户 实验 对 比 


志和 证 低 交 互 转 高 综合 高 交互 转 低 综合 
用 户 151 用 户 154 用 户 253 有 户 269 
交互 影响 力 0.040 0.024 0.088 0.087 
情感 倾向 值 1.797 1.295 0.142 0.071 
综合 影响 力 0.072 0.031 0.013 0. 006 
评论 数据 学 习 了 ,谢谢 感谢 分 享 偏方 真 的 可 以 治愈 吗 ?? 术 前 照片 有 吗 ? 
核心 观点 说 的 有 道理 ,看 到 了 新 思路 这 个 一 定 要 项 !1 你 是 中 医 ? 是 不 是 庸 医 忽悠 你 呢 
受 教 了 ,多 谢 新 方法 现在 医学 有 这 个 技术 吗 ? 不 搞 微 创 手术 ? 直接 一 大 刀 。 吓 人 啊 
有 点 意思 感谢 感谢 ! 希望 能 够 造福 世人 是 你 自己 无 知 
小 手 一 抖 ,经 验 到 手 明天 就 试 试 看 听 说 西药 吃 了 不 好 又 没 怎么 吃 没 必要 开 这 么 大 条 口 吧 ? 
项 二 下 谢谢 楼 主 分 享 就 是 因为 无 法 治愈 不 是 吧 ? 一 年 发 展 成 这 样 
科普 贴 ,支持 这 贴 得 项 啊 ! 可 以 喝 百草 清风 茶 , 很 有 效果 严重 怀疑 ,不 能 称 痛风 石 
说 的 很 对 收藏 多 吃 蔬菜 少 吃 海鲜 祝福 .加油 
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户 影响 力 研究 [J]. 图 书 情报 工作 ,2021 ,65(11):14 -23. 


4.3.3 基于 互信 息 的 
结果 

为 进一步 探究 高 综合 影响 力 用 户 对 健康 社区 主题 
方向 的 影响 ,本 研究 选取 了 前 20 个 高 综合 影响 力 用 户 
和 社区 其 他 用 户 评论 内 容 进行 实验 ,通过 TF-IDF 与 互 
信息 两 种 算法 ,构建 了 该 用 户 群 的 词 条 共 现 网 络 , 为 了 
更 直观 和 清楚 展示 其 关联 效果 与 整体 结构 ,借助 Vos- 
viewer 软件 对 该 共 现 网 络 进 行 了 可 视 化 分 析 , 具 体 结 
果 见 图 5。 其中, 疼痛、 结晶 、 血 症 、 高 尿酸 、 发 作 、 关 
节 、 止痛 .代谢 、 含 量 等 半径 较 大 的 15 个 节点 代表 高 频 
词汇 ,而 半径 较 小 的 其 他 节点 分 别 表示 每 个 高 频 词 的 


综合 影响 力 用 户 文本 内 容 分 析 


10 个 互信 息 关键 词 ,相连 表示 对 应 的 一 组 数据 。 由 
5 可 以 得 知 ,高 综合 影响 力 用 户主 要 关注 的 几 个 问题 
集中 在 三 个 方面 ,其 一 是 当 痛 风 病 发 作 的 时 候 的 表现 ， 
如 疼痛 , 临 睡 前 侵蚀 结晶、 沉 洗 、 磷 脂 . 关节、 神经 等 
关键 词 均 在 不 同方 面 说 明了 病症 发 生 的 症状 .时 间 等 
内 容 ; 其 二 是 治疗 痛风 所 使 用 的 药物 ,包括 秋水 仙 碱 、 
双氯芬酸 钠 、 阿 西 美 辛 戴 苍 .秋水 仙 、 别 嗓 叭 . 抗 炎 药 、 


疗 辅助 ,如 特别 注意 龙 须 沫 ,菠菜 . 茧 菇 、 鲜 鄂 豆 类 含 嗓 
叭 较 多 的 蕊 菜 , 蛤 类 ` 动 物 内 脏 多 饮水 、 少 喝 汤 等 。 


2 结晶 
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© We 全 - 
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CN 4 别 嘻哈 
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阿 ps 1) 
CN -2 代谢 体内 止痛 针 世 菇 
~ 地 © 有 用 菠菜 
< 尿 路 
© 血尿 酸 
三 柄 休 喝 汤 结石 
es 
OO 图 5 高 综合 影响 力 用 户 发 布 信息 共 现 可 视 化 结果 
同 理 , 我 们 将 社区 中 其 他 用 户 生成 的 信息 高 频 词 高 影响 力 用 户 所 发 布 的 信息 具有 较 强 的 使 用 价值 ,他 


与 互信 息 共 现 和 矩阵 进行 了 分 析 , 其 具体 结果 见 图 6。 
其 中 ,大 致 也 能 够 分 为 三 个 主要 方面 ,其 一 是 疾病 的 具 
体 症状 , 糜 伴 . 肿 痛 、 剧 痛 、 挛 缩 ` 发 麻 、 发 红 等 关键 词 ; 
其 二 是 药物 治疗 ,如 秋水 仙 碱 、 阿 西 美 辛 、 别 嗓 醇 双 氧 
克 尿 塞 、 次 黄 嗓 叭 、 英 太 青 \ 布 洛 耸 、 散 热 等 药物 和 方 
法 ;其 三 是 辅助 治疗 ,通过 关键 词 可 以 发 现 , 一 方面 是 
对 豆 皮 .火腿 肠 .全 菜 等 食品 尽量 避免 ,同时 可 以 对 蕊 
菜 水 果 、 菊 日 .无 机 盐 以 及 相关 的 偏 碱 性 等 食物 进行 摄 
人 和。 

总 体 来 看 ,高 综合 影响 力 用 户 所 关注 的 内 容 主题 
与 社区 中 其 他 用 户 信 息 所 关注 的 主题 具有 和 较 强 的 一 致 
趋向 性 , 即 高 综合 影响 力 用 户 与 多 数 用 户 讨论 的 核心 
内 容 一 致 。 这 在 一 定 程度 上 说 明 本 研究 中 所 识别 出 的 


们 所 发 布 的 主题 内 容 在 一 定 程度 上 引导 了 该 社区 中 的 

言 息 发 布 方向 ,也 在 一 定 程度 上 说 明 所 构建 的 综合 影 
响 力 的 识别 和 分 析 方 法 具有 一 定 的 合理 性 和 客观 性 。 
同时 ,对 于 健康 信息 的 需求 者 来 说 ,有 效 的 识别 出 高 影 
响 力 用 户 及 其 相关 的 信息 ,可 以 更 好 的 节约 需求 者 的 
信息 查询 成 本 ,快速 的 了 解 到 本 社区 的 特点 和 相应 的 
主题 方向 ,有 助 于 提升 需求 者 的 健康 行为 决策 的 效率 
和 效果 。 


5 总结 与 展望 


5.1 研究 总 结 
本 研究 从 交互 影响 力 和 情感 倾向 两 个 视角 出 发 ， 
基于 SVM 算法 的 线性 核 函数 建立 了 情绪 识别 模型 ,对 
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这 有 效 性 进行 了 识别 与 分 析 , 并 结合 交互 影响 力 与 
情感 倾向 性 探讨 了 用 户 综合 影响 力 , 得 出 以 下 结论 : 
〇 首先 ,本 研究 通过 对 用 户 交互 影响 力 的 计算 ,并 结 

关 案 例 , 发 现 交互 影响 力 更 多 强调 了 交互 活路 性 ， 
全 于 于 揭示 用 户 信息 资源 的 有 效 性 方面 存在 一 定 不 
感 由 此 并 不 能 完全 客观 的 反映 出 用 户 的 真实 影响 力 ， 
需要 引入 评论 情感 倾向 值 对 影响 力 做 进一步 的 融合 计 


思 其 次 ,通过 对 比 机 器 学 习 的 五 种 关于 情感 计算 的 
主要 算法 中 ,发 现 SVM 算法 对 于 本 文 构建 的 评论 情感 
倾 回 分 类 模型 效果 最 优 ,为 有 效 的 计算 用 户 综合 影响 
力 提 供 了 技术 支撑 。 

再 次 ,本 研究 探索 性 地 将 PageRank 交互 影响 力 与 
评论 情感 倾向 进行 融合 计算 ,并 通过 相应 个 案 分 析 从 
信息 内 容 的 角度 对 高 影响 力 用 户 做 了 进一步 验证 ,在 
一 定 程度 上 说 明了 本 研究 中 的 综合 影响 力 的 算法 具有 
较 好 的 合理 性 和 适用 性 。 

此 外 ,通过 对 高 综合 影响 力 的 高 频 词 - 互信 息 拢 
阵 与 其 他 用 户 群 体 的 高 频 词 - 互信 息 和 矩阵 的 比较 发 
现 , 二 者 相似 程度 较 高 ,基本 主题 方向 一 致 ,这 也 在 一 
定 程度 上 说 明了 寻找 高 综合 影响 力 用 户 的 必要 性 ,也 
进一步 说 明 本 研究 的 用 户 影响 力 综合 计算 方法 可 较为 
客观 的 识别 出 主导 健康 社区 内 容 方向 的 具有 较 高 影响 
力 的 用 户 , 有 助 于 健康 信息 需求 者 能 够 及 时 、 准 确 从 健 
康 社区 中 获得 所 需 有 价值 的 信息 ,提升 健康 信息 的 利 
用 效果 。 


5.2 研究 展望 

本 文 提 出 了 一 种 情绪 识别 模型 以 探索 用 户 生 成 内 
容 的 情感 倾向 ,从 而 构建 用 户 综合 影响 力 的 研究 方法 ， 
并 进一步 通过 具体 内 容 分 析 论 述 了 高 综合 影响 力 用 户 
对 社区 方向 的 影响 ,但 也 存在 一 定 的 不 足 : 

(1) 交 互 影 响 力 和 情感 分 析 算 法 的 优化 。 本 研究 
用 户 交互 影响 力主 要 基于 PageRank 算法 ,虽然 该 方法 
应 用 较为 广泛 ,但 其 在 分 析 用 户 影 响 力 方面 仍 存在 一 
定 的 改进 空间 ,可 在 今后 的 研究 中 ,结合 用 户 行 为 特征 
对 该 算法 做 进一步 的 优化 。 此 外 ,本 研究 中 所 用 到 的 
情感 倾向 分 析 的 算法 ,今后 可 对 更 多 的 相关 算法 和 框 
架 进行 比较 分 析 , 从 而 进一步 提升 相关 计算 的 效率 和 
准确 性 。 

(2) 研究 数据 的 进一步 丰富 。 本 研究 主要 基于 医 
享 网 的 痛风 病 圈 数据 进行 了 研究 ,在 今后 的 研究 中 ,可 
以 进一步 扩展 健康 社区 的 数据 获取 范围 ,通过 比较 不 
同 健康 社区 中 用 户 综合 影响 力 的 分 布 和 特征 ,以 不 断 
拓展 和 验证 本 研究 的 适用 性 。 
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Se on the User s Influence in Online Health Community Based on PageRank and Emotional Tendency 
人 Dong Wei Tao Jinhu 
三 School of Education, Tianjin University, Tianjin 300350 
CS Abstiract: | Purpose/ significance | The effective identification of high-impact users in online health communi- 
全 is helpful for demanders to find valuable health information, which is of great significance for reducing the cost of 
health information search and improving the effectiveness of health behavior decision-making. | MIethod/process | 
This study was from the perspective of interactivity of users and emotional tendency of comments using PageRank and 
SVM algorithm to build a method to measure the users” ”influence in online health community, and took the medical 
network as experimental object, from the angle of content use value, further calculated the comprehensive influence 
of users in the community, and in case the user is analyzed. | Result/conclusion | The results show that the algo- 
rithm is reasonable and can optimize the calculation results of PageRank algorithm. At the same time, the TF-IDF 
and Mutual Information algorithm are used to reveal that the information content published by high comprehensive in- 
fluence users is basically consistent with content topics of other user groups in the community, and such users play a 
certain role in guiding the theme direction of the community. Therefore, the method constructed in this study can ef- 
fectively and reasonably identify high-impact users, which is helpful for health demanders to find the required infor- 
mation timely and accurately, improving the effect of using health information, so as to enrich the theoretical and 
practical research on the information behavior of users in online health communities. 
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